Artykuł o zbieraniu i wykorzystywaniu danych w sieci
Pierwsza i druga dekada XXI wieku to czas ogromnego postępu w zakresie technologii informatycznych. Komputery stały się szybsze, a ich zdolność do przechowywania i przetwarzania różnorodnych informacji ogromna. Gdzie one jednak są? Nad tym pytaniem nieczęsto się zastanawiamy. Codziennie robimy zdjęcia, prowadzimy rozmowy za pomocą różnych komunikatorów, przesyłamy dokumenty, płacimy kartą za zakupy. Nie zastanawiamy się nad tym, gdzie te dane są zbierane i jak mogą zostać wykorzystane.
Komputery są w naszym życiu wszechobecne. Wykonują dla nas potrzebne działania, przy czym rejestrują mnóstwo danych. Łatwość ich pozyskiwania, przetwarzania i magazynowania jest ogromna. Informacje rejestrują zarówno nasze urządzenia komputerowe, zapisując je na lokalnych nośnikach danych (dyski, pamięci typu flash), jak również w tzw. chmurach obliczeniowych. Korzystanie z systemów komputerowych po zalogowaniu się do odpowiedniego konta i usługi otwiera nam możliwości wykonywania działań spersonalizowanych. Coraz częściej korzystamy z możliwości zapisywania naszych danych „gdzieś w internecie”.
Spersonalizowanie zasobów oraz usług bazujących w chmurach sprawia jednak, że informacje o nas, naszych zasobach oraz aktywnościach są skrzętnie zapisywane przez oprogramowanie zarządzające dostępem do chmur obliczeniowych i wszelkich innych usług internetowych.
– Każda nasza aktywność pozostawia cyfrowy ślad, przykładowo po korzystaniu z portali społecznościowych, sklepów internetowych czy usług finansowych. Warto pamiętać, że taki ślad zostawiamy również, dokonując fizycznych zakupów w sklepach, korzystając z kart płatniczych i kart lojalnościowych. Właściwie nie pozostawiamy go wyłącznie wtedy, gdy realizujemy płatności gotówkowo – stwierdza dr inż. Roman Simiński z Instytutu Informatyki UŚ.
Niezależnie od tego, czy ślad cyfrowy pozwala na naszą identyfikację, czy też pozostajemy anonimowi, zawiera on informacje o naszej aktywności. O tym co, kiedy i za jaką kwotę zakupiliśmy, jaką transakcję finansową przeprowadziliśmy, co wyszukiwaliśmy w internecie, gdzie i jak przemieszczaliśmy się, jakie zrobiliśmy zdjęcia (oraz kiedy i gdzie). Ślady naszej aktywności zarejestrowane w systemach komputerowych wiążą się z szeregiem istotnych problemów dotyczących między innymi poufności informacji o nas. Nieuprawnione ich wykorzystanie, np. w celach przestępczych, to rzecz możliwa oraz groźna. Informacje zarejestrowane przez systemy informatyczne służyć mogą także wielu korzystnym dla nas działaniom.
Informacje zapisane przez system bankowy w pewnym określonym czasie stanowią nie tylko wprost zapis pojedynczych zdarzeń, ale również, w sposób niejawny, stanowią odzwierciedlenie procesów zachodzących w zakresie naszych rejestrowanych na koncie środków finansowych. Jak zauważa dr inż. Simiński, szczegółowa analiza większej liczby zdarzeń z pewnego okresu pozwolić może na wydedukowanie wielu często zaskakujących informacji o rzeczywistych zdarzeniach z naszego życia. Przykładowo, ustanie comiesięcznych stałych wpływów z pewnego konta może świadczyć o potencjalnej utracie pracy, ale jednoczesne rozpoczęcie przypływu stałych comiesięcznych wyższych przychodów świadczyć może po prostu o tym, że zmieniliśmy pracę na lepszą.
Analiza anonimowych zakupów w sklepie samoobsługowym może nieść wiele informacji istotnych dla właściciela sklepu. Zawartość koszyków pozwala przykładowo na wytypowanie grup towarów kupowanych najczęściej razem. Ich identyfikacja może być wykorzystana do takiej kompozycji i ekspozycji towarów, aby te kupowane najczęściej były rozlokowane w bezpośredniej bliskości.
Powyższe przykłady pokazują proste zastosowania bardzo istotnej obecnie dziedziny sztucznej inteligencji, jaką jest inteligentna analiza danych, nazywana również nauką o danych (ang. data science). Koncepcja wydobywania wiedzy z danych jest koncepcją nienową, wywodzi się niejako z koncepcji uczenia maszynowego (ang. machine learning). Pierwsze znane i z sukcesem zastosowane metody rozwijane były w drugiej połowie ubiegłego stulecia. Najbardziej znane algorytmy to ID3, C4.5, C5.0 Quinlana, AQ Ryszarda Michalskiego, Polaka mieszkającego i prowadzącego działalność naukową w USA. Algorytmy uczenia maszynowego bazują na przykładach, z których w sposób automatyczny mają się czegoś nauczyć. Nauczyć oznacza utworzyć pewien opis zawierający wcześniej nieznaną wiedzę, na temat prawidłowości, relacji, tendencji występujących w przykładach uczących. Koncepcja maszynowego uczenia miała w sposób inny niż algorytmiczny „nauczyć maszynę” sposobu rozwiązania problemu. Wyniki działania algorytmu mogą być rożne, bywają to najczęściej drzewa decyzyjne (ang. decision trees) lub reguły decyzyjne (ang. decision rules). W obu przypadkach wyniki działania algorytmu uczenia maszynowego pozwalają na próbę sklasyfikowania nowych przypadków.
Uczenie maszynowe w istocie pozwala nam odkryć wiedzę na temat rozwiązywanego problemu. Rozwijając i uogólniając tę koncepcję, dochodzimy do koncepcji eksploracji danych (ang. data mining), czasem określanego też jako drążenie danych. Celem eksploracji danych jest wykrycie nieznanej wcześniej, użytecznej i nietrywialnej wiedzy zapisanej niejawnie w danych. Ponieważ pozyskanie danych do eksploracji może wymagać dodatkowych czynności (np. oczyszczenia i przygotowania), a wyniki eksploracji, oceny i weryfikacji, szerszy proces, obejmujący eksplorację jako jeden z elementów, nazywany jest odkrywaniem wiedzy w danych (ang. knowledge discovery in data). Jak wskazano wcześniej, obecne możliwości pozyskiwania zbiorów danych mogących zawierać ukrytą, a istotną wiedzę, są relatywnie łatwe i powszechne, a zbiory te mogą być objętościowo duże.
Zastosowanie koncepcji odkrywania wiedzy do dużych zbiorów danych pochodzących z baz rzeczywistych systemów określa się obecnie – rzadko tłumaczonym – mianem big data. Źródłem danych dla analiz określanych tym mianem są m.in. informacje składowane w chmurach obliczeniowych. Korzystanie z nich jest dla nas zwykle łatwe, używamy wygodnych, prostych w obsłudze mechanizmów, często działających automatycznie. Robimy zdjęcie aparatem w telefonie, oglądamy je i bardzo często już za chwilę zostaje ono przekazane do naszego „kawałka” chmury.
– Zwykle nie zastanawiamy się, gdzie ono jest tak naprawdę zapisywane, a trafia do centrów danych właściciela danej chmury – mówi dr inż. Roman Simiński. – Intuicja podpowiada, że tam informacje przechowywane są na jakimś dysku, w rzeczywistości jednak są przechowywane na macierzach dyskowych replikujących nasze dane lub kierowane do rozproszonych systemów składowania danych, gdzie są powielane tak, aby awaria urządzenia lub całego segmentu systemu składowania nie powodowała utraty danych.
Wszystko to lokowane jest w odpowiednio zabezpieczonych centrach. Zabezpieczenia dotyczą zarówno infrastruktury fizycznej (kontroli dostępu personelu, temperatury, zasilania awaryjnego, monitoringu), jak i infrastruktury systemowej i sieciowej (zapór sieciowych, systemów detekcji włamań, segmentacji sieci, izolacji danych). Liczący się gracze na rynku dostawców chmur dbają również o rozproszenie geograficzne tak, aby na przykład kataklizm w postaci trzęsienia ziemi nie spowodował fizycznego zniszczenia wszystkich zasobów fizycznych w danej lokalizacji. Wydaje się zatem, że nasze dane są dobrze zabezpieczone przed utratą. Ale czy są zabezpieczone przed kradzieżą? Szczególnie, jeżeli są powielane.
– W tym przypadku odpowiedź nie jest jednoznaczna – wyjaśnia informatyk. – Dostawcy systemów chmurowych są stałym obiektem ataków ze strony cyberprzestępców. Od czasu do czasu dochodzi do skutecznych ataków, które powodują wyciek części danych albo niedostępność usług. Niedostępność usług chmurowych może być sporym problemem, nawet jeżeli nie została spowodowana atakiem cyberprzestępców i nie doszło do wycieku danych, oznacza bowiem np. brak dostępu do skrzynek pocztowych, dokumentów, kontaktów, co może znacznie utrudnić życie.
W połowie grudnia 2020 roku znany dostawca usług chmurowych zanotował trwającą 45 minut awarię, która odcięła miliony użytkowników od ich danych i usług związanych z chmurą. Tydzień wcześniej awarii uległ komunikator znanego portalu społecznościowego, wpłynęło to na wymianę informacji milionów użytkowników.
– Pamiętajmy również, że nawet gdy usługi są dostępne, wymagają stabilnego połączenia z internetem. Brak dostępu do sieci bezprzewodowej, awaria pobliskiej stacji nadawczo-odbiorczej sieci komórkowej jest znacznie bardziej prawdopodobna niż awaria profesjonalnego centrum składowania danych naszej chmury. Mimo profesjonalizmu w utrzymywaniu danych ryzyko ich utraty istnieje zawsze, dlatego należy dbać, aby od czasu do czasu wykonywać kopie zapasowe kluczowych informacji na lokalnych nośnikach danych – zaleca naukowiec.
Artykuł został opublikowany w numerze 5 (285) „Gazety Uniwersyteckiej UŚ” (luty 2021).